扫描下载APP
其它方式登录
斯坦福、伯克利与英伟达联合提出LLM-as-a-Verifier验证框架,通过提升评分粒度、重复验证和评估标准分解,解决传统LLM-as-a-Judge在长时序任务中评分粗糙、平局率高(27%)的问题,在Terminal-Bench和SWE-Bench Verified等AI编程基准上取得SOTA性能,显著提升Agent准确率与稳定性。